Attention的可解释性及其在网络结构中的应用
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
本文首先讨论了使用注意力的关键神经网络体系结构;接着讨论了在神经网络中加入注意力是如何带来显著的性能提高的,通过Attention的可解释性,对神经网络内部工作的有了更深入的了解;最后讨论了三个应用领域的注意建模的应用。
资料整理不易,请帮作者点个在看吧,蟹蟹~~
attention综述文章回复:AMZS
正文开始
1First Blood
Attention在神经网络结构中的应用
下面将介绍三种与注意力机制结合使用的神经网络结构: (1)编码器-解码器框架 (2)将注意力机制扩展到单个输入序列之外的存储网络 (3)利用注意力机制绕过递归模型的序列处理。(1)Attention在编解码器框架下的使用
最早的注意力机制作为基于RNN的编码器-解码器框架的一部分来编码长输入语句。在此以后,这种体系结构得到了最广泛的应用。在解码之前,AM可以接受任何输入表示并将其处理成单个固定长度的上下文向量。因此,它可以将输入表示与输出表示分离。人们可以利用这一优势引入混合编码器-解码器,最流行的是卷积神经网络(CNN)作为编码器,RNN或长短期存储器(LSTM)作为解码器。这种体系结构特别适用于许多多模式任务,如图像和视频字幕、可视问答和语音识别。 然而采用上述方式并不能解决所有的问题(例如排序或旅行推销员问题),因为并非所有输入和输出都是连续数据。指针网络就是一类具有输入输出两个差异的神经模型,(1)输出是离散的,指向输入序列中的位置(因此称为指针网络),(2)输出的每一步目标类的数量取决于输入的长度(因此变量)。这不能通过使用传统的编码器-解码器框架来实现,因为输出字典是先验的(例如,在自然语言建模的情况下)。作者利用注意力机制权值来模拟在每个输出位置选择第i个输入符号作为所选符号的概率。该方法可应用于离散优化问题,如旅行售货员问题和排序问题。(2)Attention在内存网络中的应用
像问答和聊天机器人这样的应用程序需要利用知识库中的信息进行学习。网络的输入是一个请求以及与请求相关的知识。端到端内存网络使用一组内存块存储知识,当使用attention回复查询请求时,在内存中会为每个知识建立关联模型。通过目标连续、反向传播的进行端到端的训练,attention还具有计算优势。端到端内存网络可以看作是AM的一种泛化,它不是只在单个序列上建模注意力,而是在一个包含大量序列(事实)的知识库上建模注意力机制。(3)Attention绕过递归顺序处理
递归结构依赖于编码阶段对输入顺序的处理,此时处理不能并行化,这会导致计算效率低下。为了解决这个问题,作者[1]提出了一种Transformer结构,其中编码器和解码器由两个子层相同的堆栈组成:位置定向前馈网络(FFN)层和多头自注意层。 位置定向前馈网络FFN:输入是顺序的,要求模型利用输入时间方面的信息,而不使用捕捉该位置信息的组件(即RNNs/CNNs)。为了解释这一点,在Transformer编码器阶段,使用按位置的FFN为输入序列的每个令牌生成内容嵌入与位置编码。 多头自注意力:在每一子层中使用自注意来关联标记其在同一输入序列中的位置。由于多个注意层是平行叠加的,对相同的输入进行不同的线性变换,所以我们称之为多头注意。这有助于模型捕获输入的各个方面,并提高其性能。 Transformer结构实现了并行处理,训练时间短,翻译精度高,无需任何重复的组件,具有显著的优势。然而,位置编码包含的位置信息较少,可能不适用于对位置变化更敏感的问题。 此外,还有一些更直接的方法可以中断输入处理顺序。Raffel和Ellis[2]提出的前馈注意力模型,他们使用AM来折叠数据的时间维度,使用FFNs而不是RNNs来解决顺序数据问题。在这个场景中,AM被用来从可变长度的输入序列中产生一个固定长度的上下文向量,这个向量可以作为FFN的输入。参考文献:
[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017.
[2] Colin Raffel and Daniel PW Ellis. Feed-forward networks with attention can solve some long-term memory problems. arXiv preprint arXiv:1512.08756, 2015.
Attention的可解释性
参考文献:
[1] Jiwei Li, Will Monroe, and Dan Jurafsky. Understanding neural networks through representation erasure. arXiv preprint arXiv:1612.08220, 2016.
[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
[3] Xiangnan He, Zhankui He, Jingkuan Song, Zhenguang Liu, YuGang Jiang, and Tat-Seng Chua. Nais: Neural attentive item similarity model for recommendation. IEEE TKDE, 30(12):2354– 2366, 2018.
[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, pages 2048–2057, 2015.
Attention的应用
参考文献:
[1] Xuelong Li, Bin Zhao, Xiaoqiang Lu, et al. Mam-rnn: Multi-level attention model based rnn for video captioning. In IJCAI, pages 2208–2214, 2017.
[2] Douwe Kiela, Changhan Wang, and Kyunghyun Cho. Dynamic meta-embeddings for improved sentence representations. In EMNLP, pages 1466–1477, 2018.
[3] Yukun Ma, Haiyun Peng, and Erik Cambria. Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive lstm. In AAAI, 2018.
[4] Min Yang Baocheng Li Qiang Qu Jialie Shen Shuai Yu, Yongbo Wang. Nairs: A neural attentive interpretable recommendation system. The Web Conference(WWW), 2019.
[5] Chang Zhou, Jinze Bai, Junshuai Song, Xiaofei Liu, Zhengchao Zhao, Xiusi Chen, and Jun Gao. Atrank: An attention-based user behavior modeling framework for recommendation. In AAAI, 2018.
学术圈
这是一篇关于Attention的综述(强推) 2020年以来ICML全部接受论文列表(内含paper研究方向分类) 收藏!「自然语言处理(NLP)」AINLPer 大 盘 点 !! 收藏!「自然语言处理(NLP)」全球学术界”巨佬“信息大盘点(一)!长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~
资料整理实属不易,请给我个【在看】~~